我们提出了一种新的深度学习方法,用于实时3D人类行动从骨骼数据识别,并将其应用于开发基于视觉的智能监视系统。给定骨骼序列,我们建议将骨骼姿势及其运动编码为单个RGB图像。然后将自适应直方图均衡(AHE)算法应用于颜色图像上,以增强其局部模式并产生更多的判别特征。为了学习和分类任务,我们根据密度连接的卷积体系结构(Densenet)设计深神经网络,以从增强色彩图像中提取特征并将其分类为类。两个具有挑战性的数据集的实验结果表明,所提出的方法达到了最先进的准确性,同时需要培训和推理的计算时间较低。本文还介绍了Cemest,Cemest是一种新的RGB-D数据集,描绘了公共交通中的客运行为。它由203个未经修剪的现实世界监视视频,记录了现实的正常事件和异常事件。在支持数据增强和转移学习技术的支持下,我们在该数据集的实际条件下取得了令人鼓舞的结果。这使基于深度学习的现实应用程序的构建可以增强公共交通中的监控和安全性。
translated by 谷歌翻译
我们演示了学习信号时间逻辑公式的第一个复发性神经网络体系结构,并介绍了公式推理方法的第一个系统比较。传统系统嵌入了许多未明确形式化的专业知识。有很大的兴趣学习表征此类系统理想行为的形式规格 - 即时逻辑中的公式,这些公式被系统的输出信号所满足。此类规格可用于更好地理解系统的行为并改善其下一次迭代的设计。以前的推断方法假设某些公式模板,或者对所有可能的模板进行了启发式枚举。这项工作提出了一种神经网络体系结构,该结构通过梯度下降来渗透公式结构,从而消除了施加任何特定模板的需求。它将公式结构和参数的学习结合在一个优化中。通过系统的比较,我们证明了该方法与列举和晶格方法相比,该方法达到相似或更好的错误分类率(MCR)。我们还观察到,不同的公式可以实现相似的MCR,从经验上证明了时间逻辑推断问题的不确定性。
translated by 谷歌翻译
在随机上下文的强盗设置中,对遗憾最小化算法进行了广泛的研究,但是他们的实例最少的最佳武器识别对应物仍然很少研究。在这项工作中,我们将重点关注$(\ epsilon,\ delta)$ - $ \ textit {pac} $设置:给定策略类$ \ pi $,学习者的目标是返回策略的目标, $ \ pi \ in \ pi $的预期奖励在最佳政策的$ \ epsilon $之内,概率大于$ 1- \ delta $。我们表征了第一个$ \ textit {实例依赖性} $ PAC样品通过数量$ \ rho _ {\ pi} $的上下文匪徒的复杂性,并根据$ \ rho _ {\ pi} $提供匹配的上和下限不可知论和线性上下文最佳武器标识设置。我们表明,对于遗憾的最小化和实例依赖性PAC而言,无法同时最小化算法。我们的主要结果是一种新的实例 - 最佳和计算有效算法,该算法依赖于多项式呼叫对Argmax Oracle的调用。
translated by 谷歌翻译
在许多在线决策过程中,要求优化代理在具有许多固有相似之处的大量替代方案之间进行选择。反过来,这些相似性意味着可能会混淆标准离散选择模型和匪徒算法的损失。我们在嵌套土匪的背景下研究了这个问题,这是一类对抗性的多臂匪徒问题,学习者试图在存在大量不同的替代方案的情况下最小化他们的遗憾,并具有嵌入式(非组合)相似性的层次结构。在这种情况下,基于指数级的蓝图(例如树篱,EXP3及其变体)的最佳算法可能会产生巨大的遗憾,因为它们倾向于花费过多的时间来探索与相似,次优成本的无关紧要的替代方案。为此,我们提出了一种嵌套的指数权重(新)算法,该算法根据嵌套的,分步选择方法对学习者的替代方案进行分层探索。这样一来,我们就获得了一系列紧密的界限,以表明学习者可以有效地解决与替代方案之间高度相似性的在线学习问题,而不会发生红色的巴士 /蓝色巴士悖论。
translated by 谷歌翻译
Counterfactual reasoning from logged data has become increasingly important for many applications such as web advertising or healthcare. In this paper, we address the problem of learning stochastic policies with continuous actions from the viewpoint of counterfactual risk minimization (CRM). While the CRM framework is appealing and well studied for discrete actions, the continuous action case raises new challenges about modelization, optimization, and~offline model selection with real data which turns out to be particularly challenging. Our paper contributes to these three aspects of the CRM estimation pipeline. First, we introduce a modelling strategy based on a joint kernel embedding of contexts and actions, which overcomes the shortcomings of previous discretization approaches. Second, we empirically show that the optimization aspect of counterfactual learning is important, and we demonstrate the benefits of proximal point algorithms and differentiable estimators. Finally, we propose an evaluation protocol for offline policies in real-world logged systems, which is challenging since policies cannot be replayed on test data, and we release a new large-scale dataset along with multiple synthetic, yet realistic, evaluation setups.
translated by 谷歌翻译